Problema de investigación: Clustering en extrema alta dimensionalidad¶

Como no se puede hacer clustering directo sobre un promedio de XXXX dimensiones para agrupar a los países por sector es necesario realizar previamente una reducción de la dimensionalidad.

Algunas de las herramientas existentes para la reducción de dimensionalidad:

  • PCA
  • t-SNE
  • UMAP

Sus límites implican buscar alternativas que puedan enfrentar eficientemente el problema, tanto desde el punto de vista de la exactitud de sus resultados (dificil de evaluar en una clasificación no supervisada) como desde el punto de vista computacional (que pueda ejecutarse y obtener resultados en un tiempo prudencial).

Una aproximación posible a este problema es la utilización de Autoencoders, redes neuronales cuyo propósito es la reducción de la dimensionalidad abstrayendo atributos de datos complejos a través de diferentes capas de procesamiento.

ISIC3_2d hs17_6d
0 01 294
1 02 39
2 05 72
3 10 7
4 11 4
5 12 2
6 13 21
7 14 66
8 15 560
9 16 7
10 17 538
11 18 218
12 19 68
13 20 95
14 21 114
15 22 28
16 23 19
17 24 980
18 25 131
19 26 160
20 27 362
21 28 209
22 29 538
23 30 31
24 31 134
25 32 83
26 33 197
27 34 62
28 35 81
29 36 167

Grafo¶

otro intento

Análisis del sector 01:
R2: -6.764227758332211
root stress: 0.41081246009224115
mean stress: 0.12499148791304299
Varianza del desvio del error: 0.10550135403317683
Análisis del sector 02:
R2: -1.4308308665668399
root stress: 0.35134746565435704
mean stress: 0.07801014176441586
Varianza del desvio del error: 0.06735102706110263
Análisis del sector 05:
R2: -4.351254419789641
root stress: 0.3986652061624857
mean stress: 0.11098902718682996
Varianza del desvio del error: 0.09426573208268385
Análisis del sector 10:
R2: 0.5793811200250807
root stress: 0.24872603565854723
mean stress: 0.029374772257567284
Varianza del desvio del error: 0.027508429283139735
Análisis del sector 11:
R2: 0.9539121701001021
root stress: 0.11474404958314298
mean stress: 0.004288365699252868
Varianza del desvio del error: 0.004326113187948975
Análisis del sector 12:
R2: 0.9998898101967949
root stress: 0.007650016878345952
mean stress: 2.1120066946756096e-05
Varianza del desvio del error: 2.1698921714447182e-05
Análisis del sector 13:
R2: -1.7162327573188056
root stress: 0.36991261234091616
mean stress: 0.09116199589664087
Varianza del desvio del error: 0.0789145928722081
Análisis del sector 14:
R2: -3.972469415874712
root stress: 0.3976507736017094
mean stress: 0.10641860414076387
Varianza del desvio del error: 0.0903958844255474
Análisis del sector 15:
R2: -7.544758764639074
root stress: 0.4221566471952691
mean stress: 0.1293691286976136
Varianza del desvio del error: 0.10904353949421998
Análisis del sector 16:
R2: 0.552944692711729
root stress: 0.26082203803105036
mean stress: 0.026700621285322215
Varianza del desvio del error: 0.024973339829549596
Análisis del sector 17:
R2: -5.107867174332629
root stress: 0.40714920744064975
mean stress: 0.11221481128328643
Varianza del desvio del error: 0.09473588305156172
Análisis del sector 18:
R2: -3.261411394852492
root stress: 0.3841856108669329
mean stress: 0.09201606537997552
Varianza del desvio del error: 0.07798153471656273
Análisis del sector 19:
R2: -1.3342854161321882
root stress: 0.35092741283678663
mean stress: 0.069732234384881
Varianza del desvio del error: 0.05943690175229078
Análisis del sector 20:
R2: -2.6928686957277304
root stress: 0.3693317533587
mean stress: 0.08500281417120024
Varianza del desvio del error: 0.0721895001267448
Análisis del sector 21:
R2: -3.0159401567461517
root stress: 0.3854800830000858
mean stress: 0.08809512381460409
Varianza del desvio del error: 0.07471211842307492
Análisis del sector 22:
R2: -0.30965020587584724
root stress: 0.3295882291429338
mean stress: 0.04484373234057335
Varianza del desvio del error: 0.038900243919670154
Análisis del sector 23:
R2: -0.39009724040083515
root stress: 0.3243432468542063
mean stress: 0.05926984410002524
Varianza del desvio del error: 0.05193316226922256
Análisis del sector 24:
R2: -8.316654989467072
root stress: 0.4287585613091011
mean stress: 0.1316226994120862
Varianza del desvio del error: 0.1108793963209046
Análisis del sector 25:
R2: -2.598874891591867
root stress: 0.3809467412933757
mean stress: 0.07281682713785144
Varianza del desvio del error: 0.061915761587089
Análisis del sector 26:
R2: -6.193212221780057
root stress: 0.40973095632857043
mean stress: 0.11445618142265869
Varianza del desvio del error: 0.09662795827917463
Análisis del sector 27:
R2: -3.0568526366726188
root stress: 0.38529592025990994
mean stress: 0.10110141941228099
Varianza del desvio del error: 0.08619332605457171
Análisis del sector 28:
R2: -4.598309113735547
root stress: 0.40247028442955507
mean stress: 0.09404596296242841
Varianza del desvio del error: 0.07950261221817731
Análisis del sector 29:
R2: -6.976085479794533
root stress: 0.4164217756532937
mean stress: 0.11635644931708845
Varianza del desvio del error: 0.09807385279925362
Análisis del sector 30:
R2: 0.29076325373730016
root stress: 0.29808955612517485
mean stress: 0.02450212825903511
Varianza del desvio del error: 0.021753742795702358
Análisis del sector 31:
R2: -2.9183573915048098
root stress: 0.3815568531552367
mean stress: 0.08411796889856642
Varianza del desvio del error: 0.07133188287925134
Análisis del sector 32:
R2: -2.1181403436380584
root stress: 0.3748095555334233
mean stress: 0.0680445434347233
Varianza del desvio del error: 0.05799547647327641
Análisis del sector 33:
R2: -5.063483316923404
root stress: 0.4014550952508623
mean stress: 0.09620299333279347
Varianza del desvio del error: 0.08130135212713548
Análisis del sector 34:
R2: -1.79171615337459
root stress: 0.3574287490726087
mean stress: 0.06023830663390106
Varianza del desvio del error: 0.05140032370586686
Análisis del sector 35:
R2: -3.9498076456546602
root stress: 0.39333783720197635
mean stress: 0.09587193177306425
Varianza del desvio del error: 0.08141872225113203
Análisis del sector 36:
R2: -2.9561776574098495
root stress: 0.3768053225648734
mean stress: 0.08858966552685454
Varianza del desvio del error: 0.07519421581726993